在研究两个随机变量 $X, Y$ 时, $X$ 与 $Y$ 之间存在相关性, 设 $Y$ 是因变量, $X$ 是自变量, $$Y=\alpha+\beta X+\varepsilon$$ 这里, $\varepsilon$ 是随机误差, 服从正态分布。回归系数 $\alpha 、 \beta$ 分别称为回归直线方程的截距和斜率, 可以根据样本数据进行估计, 根据样本数据拟合的曲线方程可表示为 $\hat{y}=a+b x$ 。应用最 小二乘法来估计系数 $a, b$, 使测量值 $y$ 与回归预测值 $\hat{y}$ 之间的差值的平方和最小。做回归分析时要求误差项满足独立性、方差齐性和正态性。
在R语言中使用 lm()
函数进行回归分析, lm()
(linear model)代表了线性模型, 该函数可 以用于实现简单回归分析, 多元回归分析和方差分析。 lm()
函数的基本语法格式为: lm (formula, data, subset, weights, na, action, method = "qr", model = TRUE, x=FALSE, y=FALSE, qr=TRUE, singular,ok=TRUE, contrasts = NULL, offset, $\cdots$ )
例 一元回归分析示例,生成随机数据集,对变量 $x, y$ 进行回归分析。
x <- rnorm(20,4,1)
y <- 2*x+rnorm(20)
lm.xy <- lm(formula = y~x)
summary(lm.xy)
结果
Call:
lm(formula = y ~ x)
Residuals:
Min 1Q Median 3Q Max
-1.6436 -0.4972 0.1291 0.5099 2.0471
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.0514 0.8030 2.555 0.0199 *
x 1.4177 0.2107 6.730 2.62e-06 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.9198 on 18 degrees of freedom
Multiple R-squared: 0.7156, Adjusted R-squared: 0.6998
F-statistic: 45.29 on 1 and 18 DF, p-value: 2.618e-06
在例 中, $x$ 服从 $N(4,1)$ 正态分布, $y$ 值是 $x$ 值乘以 2 再加上服从 $N(0,1)$ 的随机数 而生成。使用函数 $\operatorname{lm}$ (进行线性回归分析得到回归方程 $y=1.4177 x+2.0514$ 。 lm()
函数返回类的对象,使用 summary (lm.xy)
可以得到回归系数斜率和截距的估计值、标准误、总体参数的假设检验 $t$ 值和 $p$ 值, 以及反映拟合程度的 $R^2$ 和校正 $R^2$ 值. $R^2$ 反映了因变量 $y$ 的方差中可以用自变量 $x$ 解释的比例, 最后给出了对回归方程 进行方差分析的结果, 方差分析的统计量 $F=19.66, p$ 值为 $0.0003208$, 在统计学上具有极 显著性, 该 $p$ 值与对这两个变量进行cor.test()
分析的结果相同。
回归分析的结果与样本的选择有关, 有些样本点对结果的影响很大, 也可能存在异常点, 这些具体问题在使用时应该给予关注。
摘自:
x <- rnorm(20,4,1)
y <- 2*x+rnorm(20)
lm.xy <- lm(formula = y~x)
summary(lm.xy)
Call: lm(formula = y ~ x) Residuals: Min 1Q Median 3Q Max -1.6436 -0.4972 0.1291 0.5099 2.0471 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.0514 0.8030 2.555 0.0199 * x 1.4177 0.2107 6.730 2.62e-06 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 0.9198 on 18 degrees of freedom Multiple R-squared: 0.7156, Adjusted R-squared: 0.6998 F-statistic: 45.29 on 1 and 18 DF, p-value: 2.618e-06